Computer vision applications have heavily relied on the linear combination of Lambertian diffuse and microfacet specular reflection models for representing reflected radiance, which turns out to be physically incompatible and limited in applicability. In this paper, we derive a novel analytical reflectance model, which we refer to as Fresnel Microfacet BRDF model, that is physically accurate and generalizes to various real-world surfaces. Our key idea is to model the Fresnel reflection and transmission of the surface microgeometry with a collection of oriented mirror facets, both for body and surface reflections. We carefully derive the Fresnel reflection and transmission for each microfacet as well as the light transport between them in the subsurface. This physically-grounded modeling also allows us to express the polarimetric behavior of reflected light in addition to its radiometric behavior. That is, FMBRDF unifies not only body and surface reflections but also light reflection in radiometry and polarization and represents them in a single model. Experimental results demonstrate its effectiveness in accuracy, expressive power, and image-based estimation.
translated by 谷歌翻译
我们介绍了一种新型的多视图立体声(MVS)方法,该方法不仅可以同时恢复每个像素深度,而且还可以恢复表面正常状态,以及在已知但自然照明下捕获的无纹理,复杂的非斜面表面的反射。我们的关键想法是将MVS作为端到端的可学习网络,我们称为NLMVS-NET,该网络无缝地集成了放射线线索,以利用表面正常状态作为视图的表面特征,以实现学习成本量的构建和过滤。它首先通过新颖的形状从阴影网络估算出每个视图的像素概率密度。然后,这些每个像素表面正常密度和输入多视图图像将输入到一个新颖的成本量滤波网络中,该网络学会恢复每个像素深度和表面正常。通过与几何重建交替进行交替估计反射率。对新建立的合成和现实世界数据集进行了广泛的定量评估表明,NLMVS-NET可以稳健而准确地恢复自然设置中复杂物体的形状和反射率。
translated by 谷歌翻译
我们将2D盲点估计作为道路场景理解的关键视觉任务。通过自动检测从车辆有利位置阻塞的道路区域,我们可以主动提醒手动驾驶员或自动驾驶系统,以实现事故的潜在原因(例如,引起人们对孩子可能逃脱的道路区域的注意)。在完整3D中检测盲点将是具有挑战性的,因为即使汽车配备了LIDAR,3D推理也会非常昂贵且容易发生。相反,我们建议从单眼相机中学习估计2D中的盲点。我们通过两个步骤实现这一目标。我们首先引入了一种自动方法,用于通过利用单眼深度估计,语义细分和SLAM来生成``地面真相''盲点训练数据,以进行任意驾驶视频。关键的想法是在3D中推理,但要从2D图像定义为那些目前看不见但在不久的将来看到的道路区域。我们使用此自动离线盲点估计来构建一个大规模数据集,我们称之为道路盲点(RBS)数据集。接下来,我们介绍BlindSpotnet(BSN),这是一个简单的网络,该网络完全利用此数据集,以完全自动估算框架盲点概率图,以用于任意驾驶视频。广泛的实验结果证明了我们的RBS数据集的有效性和BSN的有效性。
translated by 谷歌翻译
我们介绍了观看鸟类,从观察者(例如一个人或车辆)捕获的自我为中心的视频中恢复人群地面运动的问题也在人群中移动。恢复的地面运动将为情境理解提供合理的基础,并在计算机视觉和机器人中使用下游应用。在本文中,我们制定了视图鸟化作为几何轨迹重建问题,并从贝叶斯视角推导出级联优化方法。该方法首先估计观察者的运动,然后为每个帧定位周围的行人,同时考虑到它们之间的本地相互作用。我们通过利用人群中的人们的综合和实际轨迹来介绍三个数据集,并评估我们方法的有效性。结果表明了我们方法的准确性,并设定了地面,以进一步研究认为鸟化是一个重要但具有挑战性的视觉理解问题。
translated by 谷歌翻译
Distribution shifts, which often occur in the real world, degrade the accuracy of deep learning systems, and thus improving robustness is essential for practical applications. To improve robustness, we study an image enhancement method that generates recognition-friendly images without retraining the recognition model. We propose a novel image enhancement method, AugNet, which is based on differentiable data augmentation techniques and generates a blended image from many augmented images to improve the recognition accuracy under distribution shifts. In addition to standard data augmentations, AugNet can also incorporate deep neural network-based image transformation, which further improves the robustness. Because AugNet is composed of differentiable functions, AugNet can be directly trained with the classification loss of the recognition model. AugNet is evaluated on widely used image recognition datasets using various classification models, including Vision Transformer and MLP-Mixer. AugNet improves the robustness with almost no reduction in classification accuracy for clean images, which is a better result than the existing methods. Furthermore, we show that interpretation of distribution shifts using AugNet and retraining based on that interpretation can greatly improve robustness.
translated by 谷歌翻译
在不确定性下的自动机器人决策中,必须考虑剥削和探索可用选项之间的权衡。如果可以利用与选项相关的次要信息,则此类决策问题通常可以作为上下文多臂强盗(CMAB)提出。在这项研究中,我们采用主动推断,该推断近年来在神经科学领域进行了积极研究,作为CMAB的替代行动选择策略。与常规的行动选择策略不同,在计算与决策代理人的概率模型相关的预期自由能(EFE)时,可以严格评估每种选项的不确定性,这是从自由能原理中得出的。我们专门解决了使用分类观察可能性函数的情况,因此EFE值在分析上是棘手的。我们介绍了基于变异和拉普拉斯近似值计算EFE的新近似方法。广泛的仿真研究结果表明,与其他策略相比,主动推断通常需要迭代率要少得多,以识别最佳选择并普遍实现累积累积的遗憾,以相对较低的额外计算成本。
translated by 谷歌翻译
马尔可夫链蒙特卡洛(MCMC),例如langevin Dynamics,有效地近似顽固的分布。但是,由于昂贵的数据采样迭代和缓慢的收敛性,它的用法在深层可变模型的背景下受到限制。本文提出了摊销的langevin Dynamics(ALD),其中数据划分的MCMC迭代完全被编码器的更新替换为将观测值映射到潜在变量中。这种摊销可实现有效的后验采样,而无需数据迭代。尽管具有效率,但我们证明ALD是MCMC算法有效的,其马尔可夫链在轻度假设下将目标后部作为固定分布。基于ALD,我们还提出了一个名为Langevin AutoCodeer(LAE)的新的深层变量模型。有趣的是,可以通过稍微修改传统自动编码器来实现LAE。使用多个合成数据集,我们首先验证ALD可以从目标后代正确获取样品。我们还在图像生成任务上评估了LAE,并证明我们的LAE可以根据变异推断(例如变异自动编码器)和其他基于MCMC的方法在测试可能性方面胜过现有的方法。
translated by 谷歌翻译
使用移动操纵器来整理家庭环境,在机器人技术中提出了各种挑战,例如适应大型现实世界的环境变化,以及在人类面前的安全和强大的部署。2021年9月举行的全球竞赛,对真正的家庭环境中的整理任务进行了基准测试,重要的是,对全面的系统性能进行了测试。对于此挑战,我们开发了整个家庭服务机器人系统,该机器人系统利用数据驱动的方法来适应众多的方法在执行过程中发生的边缘案例,而不是经典的手动预编程解决方案。在本文中,我们描述了提出的机器人系统的核心成分,包括视觉识别,对象操纵和运动计划。我们的机器人系统赢得了二等奖,验证了数据驱动的机器人系统在家庭环境中移动操作的有效性和潜力。
translated by 谷歌翻译
如今,为了改善服务和城市地区的宜居性,全世界正在进行多个智能城市计划。 SmartSantander是西班牙桑坦德市的一个智能城市项目,该项目依靠无线传感器网络技术在城市内部部署异质传感器,以测量多个参数,包括户外停车信息。在本文中,我们使用SmartSantander的300多个户外停车传感器的历史数据研究了停车场可用性的预测。我们设计了一个图形模型,以捕获停车场的定期波动和地理位置。为了开发和评估我们的模型,我们使用了桑坦德市的3年停车场可用性数据集。与现有的序列到序列模型相比,我们的模型具有很高的精度,该模型足够准确,可以在城市提供停车信息服务。我们将模型应用于智能手机应用程序,以被公民和游客广泛使用。
translated by 谷歌翻译
为了安全,有效地与人合作,工业机器人需要改变它们的运动迅速在环境突然变化,如出现跨规划的轨迹障碍反应的能力。在实时运动规划,是实时通过视觉系统检测到的障碍物,以及新的轨迹规划针对的障碍的当前位置,并立即对机器人执行。现有的实时运动规划师,但是,缺乏处理后的平滑步骤 - 这是在抽样为基础的运动规划的关键 - 导致计划的轨迹是生涩的,因此效率低下和更少的人力友好。在这里,我们提出了基于shortcutting技术来解决这个问题的实时轨迹平滑。通过一种新颖的神经网络利用快速清除推断,所提出的方法是能够始终如一地均匀涂抹于商用的GPU中200ms的6-DOF工业机器人臂的轨迹。我们整合所提出的平滑成一个完整的视觉 - 运动规划 - 执行循环中,证明实时,流畅,工业机器人进行动态障碍的表现。
translated by 谷歌翻译